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The integrated digital signal processor has a 
general purpose processor (210) and a vector 
processor (220) for operating in parallel with the 
general-purpose processor. The general-purpose 
processor has a set of scalar registers, an 
instruction decoding unit and an instruction 
processor (200). The vector processor has a set 
of vector registers and a second instruction 
decoder and processor. A cache memory (20) is 
coupled to the general-purpose processor and to 
the vector processor. The cache memory has 
simultaneous read and write ports, and holds a 
data queue coupled to both processors. 
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@ DISPOSITIF PROCESSEUR INTEGRE DE SIGNAUX NUMERIQUES. 

(57/ La presente invention concerne un dispositif proces- 
sor integre' de signaux numeriques. /* 

Le dispositif est caracterise en ce qu'il comprend un pro- 
cesseur & tout usage (210) et un processeur de vecteurs 
(220) pouvant fonctionner en parallele avec le processeur 
Stout usage (210). Ce dispositif trouve application dans le 
domaine du multimedia. 



c 



ED 



2752466 
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La presente invention concerne des processeurs de 
signaux numeriques et particulierement des systemes de 
traiement parallele asymetrique a double mise en place ou 
a double chemin, qui comprennent un processeur a but 
5 general ou a tout usage et un processeur de vecteurs pour 
manipulation de donnees vectorielles . 

La presente description est en rapport et incorpore 
a titre de references , dans leur totalite, les demandes 
de brevets suivantes actuellement deposees : 
10 Demande de brevet US numero de serie non connu, 

dossier du mandataire US No. M-4355, titree "Single- 
Ins truction-Multiple-Date Processing in a Multimedia 
Signal Processor ;" 

Demande de brevet US numero de serie non connu, 
15 dossier du mandataire US No. M-436555, titree "Efficient 
Context Saving and Restoring in Multiprocessors" ; 

Demande de brevet US numero de serie non connu, 
dossier du mandataire US No. M-4366, titree "System and 
Method for Handling Software Interrupts with Argument 
20 Passing" ; 

Demande de brevet US numero de serie non connu, 
dossier du mandataire US No. M-4367, titree "System and 
Method for Handling Interrupts and Exception Events in an 
Asymmetric Multiprocessor Architecture" ; 
25 Demande de brevet US numero de serie non connu, 

dossier du mandataire US No. M-4368, titree "Methods and 
Apparatus for Processing Video Data" ; 

Demande de brevet US numero de serie non connu, 
dossier du mandataire US No. M-4369, titree "Single- 
30 Instruction-Multiple-Data Processing Using Multiple Banks 
of Vector Registers" ; and 

Demande de brevet US numero de serie non connu, 
dossier du mandataire US No. M-4370, titree "Single- 
Instruction-Multiple-Data Processing with Combined 
35 Scalar/Vector Operations". 

Une variete de processeurs de signaux numeriques 
sont utilises dans des applications multimedia telles que 
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le codage et le decodage de donnees video, audio et de 
communications. Un type de processeur de signaux 
numeriques a du materiel dedie pour s'adresser a un 
probleme specifique tel que decodage ou encodage video 
5 MPEG. Des processeurs de signaux numeriques a materiel 
dedie fournissent generalement une performance elevee par 
cout mais sont seulement utilisables pour des problemes 
specif iques et incapables de s' adapter a d'autres 
problemes ou changements en standards. 

10 Les processeurs de signaux numeriques programmables 

executent des programmes qui resolvent des problemes 
multimedia et fournissent une plus grande flexibility que 
les processeurs de signaux numeriques a materiel dedie 
parce que changer un logiciel pour un processeur de 

15 signaux numeriques programmable peut changer le probleme 
resolu. Un inconvenient des processeurs de signaux 
numeriques programmable est leur plus faible performance 
par cout. Un processeur de signaux numeriques 
programmable a typiquement une architecture similaire a 

20 celle d 1 un processeur a but general et une puissance de 
traitement relativement faible. La puissance de 
traitement faible resulte generalement d'une tentative 
pour minimiser les couts. Ainsi, un tel processeur de 
signaux numeriques n'est pas completement satisfaisant 

25 car un processeur de signaux numeriques de faible 
puissance retarde la possibility du processeur de signaux 
numeriques a s'adresser aux problemes multimedia plus 
complexes tels que l 1 encodage et le decodage video en 
temps reel. 

30 Puisqu'un but d f un processeur de signaux numeriques 

programmable est de fournir une puissance de traitement 
elevee pour s'adresser a des problemes multimedia a un 
cout minimum, on pourrait I'incorporer dans un traitement 
parallele a processeur de signaux numeriques, qui est une 

35 maniere connue d'augmenter la puissance de traitement. 
Une architecture pour traitement parallele est un 
processeur de signaux numeriques a "mot d' instruction 
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tres long" (VLIW), qui est caracterise par un grand 
nombre d' unites f onctionnelles, dont la plupart 
accomplissent des taches differentes mais relativement 
simples. Une instruction unique pour un processeur de 
5 signaux numeriques a VLIW peut etre de 128 octets ou plus 
et a des parties separees. Chaque partie peut etre 
executee en parallele par des unites f onctionnelles 
separees. Les processeurs de signaux numeriques a VLIW 
ont une puissance de calcul elevee parce qu'un grand 

10 nombre d' unites f onctionnelles peuvent fonctionner en 
parallele. Les processeurs de signaux numeriques a VLIW 
ont egalement un cout relativement faible parce que 
chaque unite f onctionnelle est relativement petite et 
simple. Un probleme pour les processeurs de signaux 

15 numeriques a VLIW, cependant, est 1 1 inef f icacite dans la 
gestion de commande d 1 entree/sortie, la communication 
avec un ordinateur hote et autres fonctions qui ne 
conduisent pas elles-memes a une execution parallele dans 
les unites f onctionnelles du processeur a signaux 

20 numeriques a VLIW. Add i t i onne 1 1 ement , des programmes pour 
VLIW different des programmes d' ordinateur convent ionnels 
et peuvent etre difficiles a executer a cause du manque 
d'outils de programmation et de programmeurs familiers 
aux architecteurs a logiciel a VLIW. 

25 Selon 1' invention, un processeur de signaux 

numeriques integre est decrit. Le processeur de signaux 
numeriques combine un processeur a tout usage avec un 
processeur de vecteurs, qui est capable de fonctionner en 
parallele avec le processeur a tout usage. Le processeur 

30 de signaux numeriques integre est capable d'accomplir une 
performance elevee a faible cout puisque les deux 
processeurs accomplissent seulement des taches idealement 
adaptees pour chaque processeur. Par exemple, le 
processeur a tout usage fait tourner un systeme de 

35 fonctionnement en temps reel et accomplit une gestion de 
systeme global tandis que le processeur de vecteurs est 
utilise pour accomplir des calculs paralleles en 
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utilisant des structures donnees appelees "vecteurs". Un 
vecteur est une collecte d 1 elements de donnees 
typiquement du meme type. 

Dans un mode de realisation, le processeur de 
5 signaux numeriques comprend egalement un sous-systeme 
antememoire ou a memoire cache, un premier bus et un 
second bus. Le premier bus est utilise pour des 
dispositifs a vitesse elevee tels qu'une interface de bus 
local, un controleur d'acces direct en memoire (DMA), un 
10 controleur de dispositif et un controleur de memoire. Le 
second bus est utilise pour des dispositifs a vitesse 
lente tels qu'une temporisation de systeme, un UART, un 
processeur de train de bits et un controleur 
d f interruption. 

15 Le sous-systeme antememoire combine des fonctlons 

antememoire a des fonctions de tableau de commutation ou 
de routage de donnees. Les fonctions de tableau de 
commutation ou de coramutateur permettent des trajets de 
communication multiples entre les processeurs et les bus 

20 pour fonctionner simultanement , De plus, la portion 
antememoire du sous-systeme antememoire permet des 
lectures et des ecritures simultanees dans la memoire 
cache. 

L' invention sera mieux comprise et d'autres buts, 
25 caracteristiques details et avantages de celle-ci 
apparaitront plus clairement dans la description 
explicative qui va suivre faite en reference aux dessins 
schematiques annexes donnes uniquement a titre d'exemple 
illustrant plusieurs modes de realisation de l 1 invention 
30 et dans lesquels : 

- la figure 1 represente un schema blocs d'une 
carte multimedia selon un mode de realisation de 
1' invention ; 

- la figure 2 represente un schema blocs d'un 
35 processeur de signaux multimedia selon un mode de 

realisation de I 1 invention ; 
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- la figure 3 illustre des relations entre des 
processeurs et un logiciel ou micrologiciel dans un 
systeme comprenant un processeur multimedia selon un mode 
de realisation de 1' invention ; 

5 - la figure 4 represente un schema blocs d'un sous- 

systeme antememoire selon un mode de realisation de 
l f invention ; 

- la figure 5 represente une topographie de memoire 
selon un mode de realisation de 1' invention ; 

10 - la figure 6 represente un schema blocs d'une file 

d'attente de donnees utilisees dans un sous-systeme 
antememoire selon un mode de realisation de 1" invention ; 

- la figure 7 represente un schema blocs d'une 
seconde file d f attente de donnees utilisees dans un sous 

15 syteme antememoire selon un mode de realisation de 
1' invention ; et 

- la figure 8 represente un schema blocs d'une file 
d'attente d'adresse utilisee dans un sous-systeme 
antememoire selon un mode de realisation de 1' invention. 

20 L* utilisation des memes symbol es de reference aux 

dif ferentes figures indique des elements similaires ou 
identiques. 

Selon un aspect de 1' invention, un processeur 
multimedia comprend un processeur a tout usage et un 

25 processeur de vecteurs qui fonctionnent en parallele 
selon des chemins de programme separes. Le processeur a 
tout usage , comme la plupart des processeurs a tout usage 
conventionnels, execute des instructions qui manipulent 
typiquement des donnees scalaires. De tels processeurs 

30 sont adaptes pour 1' execution de fonctions 
d 1 entree/sortie (I/O) et de commande de controle. Dans 
certains modes de realisation, le processeur a tout usage 
a une capacite de traitement de vecteurs limitee de 
plusieurs elements de donnees de dimensions d 1 octets 

35 groupees dans un mot de donnees. Par exemple, si le 
processeur a tout usage est un processeur 32 bits, 
certains modes de realisation du processeur a tout usage 
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peuvent traiter simultanement quatre elements de donnees 
d'un octet. Cependant, des calculs multimedia tels que 
compression et decompression de donnees audio et video 
exigent beaucoup de calculs repetitifs sur des groupes 
5 d' elements d' image et des chaines de donnees audio. Pour 
accomplir des operations multimedia en temps reel, un 
processeur a tout usage qui manipule des donnees 
scalaires (par exemple une valeur d' element d' image ou 
une amplitude de son par operande) ou seulement de petits 

10 vecteurs doit fonctionner a une frequence d'horloge 
elevee. Au contraire, le processeur de vecteurs execute 
des inscriptions ou chaque operande est un vecteur 
contenant des elements de donnees multiples (par exemple 
des valeurs d' elements d' image multiples ou des 

15 amplitudes de son). De ce fait, le processeur de vecteurs 
peut accomplir des operations multimedia en temps reel a 
une fraction de la frequence d'horloge exigee pour un 
processeur a tout usage d' accomplir la meme fonction. 

Ainsi, en autorisant une division performante des 

20 taches exigees pour une application multimedia , la 
combinaison d'un processeur a tout usage et d'un 
processeur de vecteurs programmables f ournit une 
performance elevee par cout. Dans un mode de realisation 
de 1' invention, le processeur a tout usage execute un 

25 systeme fonctionnant en temps reel congu pour une carte 
imprimee media ("carte") communiquant avec un systeme 
d'ordinateur hote. Le systeme fonctionnant en temps reel 
communique avec un processeur primaire du systeme 
d'ordinateur, des disposifs I/O de services sur la carte 

30 ou couples a la carte et choisit des taches que le 
processeur de vecteurs execute. Dans ce mode de 
realisation, le processeur de vecteurs est congu pour 
accomplir des taches de calculs intensifs exigeant une 
manipulation de blocs de donnees importants, tandis que 

35 le processeur a tout usage agit comme le processeur 
maitre au processeur de vecteurs . Des chemins de 
programme pour chaque processeur sont ecrits en utilisant 
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un jeu d f instructions conventionnel qui rend le 
processeur multimedia "tres facile a utiliser pour le 
programmeur". La programmabilite permet au processeur 
multimedia d'accomplir une variete de taches multimedia 
5 differentes. Le processeur multimedia peut, par exemple, 
etre adapte a un nouveau protocole en changeant 
s implement soit ses programmes d* application soit son 
micrologiciel. Dans un mode de realisation, le jeu 
d' instructions est similaire a celui d'un jeu 

10 d' instructions RISC conventionnel (ordinateur a jeu 
d f instructions reduit). 

Selon un autre aspect de 1' invention, le processeur 
a tout usage et le processeur de vecteurs partagent une 
variete de ressources sur puce et hors puce qui sont 

15 accessibles par un espace d'adresse unique. Un sous- 
systeme antememoire qui met en application des caches de 
donnees et d' instructions separes pour chaque processeur 
fournit egalement une connexion du type commutateur entre 
une memoire locale et des ressources tels qu'un 

20 processeur a flux de bits, une interface de transmission 
asynchrone ( "UART" ) , un controleur d'acces direct en 
memoire ("DMA"), une interface de bus local et une 
interface codeur-decodeur ("CODEC") qui sont des 
dispositifs cartographies de memoire. Le sous-systeme 

25 antememoire peut utiliser un protocole a transaction 
orientee qui met en oeuvre un commutateur pour acces de 
donnees parmi les processeurs et les ressources 
cartographies de memoire. 

La figure 1 represente une carte multimedia 100 

30 selon un mode de realisation de 1' invention. La carte 
multimedia 100 comprend une plaque a circuit imprime, un 
processeur multimedia 110 et un connecteur qui se fixe a 
un bus local 105 d'un systeme d 1 ordinateur hote. Dans un 
mode de realisation a titre d' exemple, le bus local 105 

35 est un bus PCI ; mais dans d'autres modes de realisation, 
le bus local 105 pourrait etre un bus exclusif ou un bus 
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qui se conforme a tout protocole souhaite tel que les 
protocoles de bus ISA ou VESA. 

Le processeur multimedia 110 utilise une memoire 
locale 120, egalement situee sur la carte multimedia 100, 
5 pour memoriser des instructions de donnees et des 
programmes. La memoire locale 120 peut agir egalement 
comme une memoire d' image pour des applications de codage 
et de decodage video. Dans le mode de realisation a titre 
d' exemple, la memoire locale 120 peut etre mise en oeuvre 

10 par une memoire a acces aleatoire dynamique synchrone de 
32 bits a 512K (DRAM). Des portions de l'espace de 
memoire locale peuvent egalement etre mlses en oeuvre par 
une memoire a acces aleatoire statique sur pastille 
("SRAM") et une memoire morte ("ROM") dans le processeur 

15 multimedia 110. En fait, si une memoire sur pastille ou 
puce est prevue pour maintenir suffisamment les donnees 
et les instructions de la carte multimedia 100, la 
memoire locale 120 n'a pas besoin d'etre implantee. 

En plus du processeur multimedia 110 et de la 

20 memoire locale 120, la carte multimedia 100 comprend un 
convertisseur video analogique-numerique 132 (ADC), un 
convertisseur video numerique-analogique 134 (DAC), un 
ADC audio 142, un DAC audio 144, un ADC de communications 
146 et un DAC de communications 148. Chacun des 

25 convertisseurs 132, 134, 142, 144, 146 et 148 peut etre 
mis en oeuvre par un ou plusieurs circuits iritegres 
separes. Alternativement, deux ou plus des convertisseurs 
132, 134, 142, 144, 146 et 148 peuvent etre integres sur 
un circuit integre unique. Par exemple, un circuit 

30 integre unique 140, par exemple, le AD1843 disponible 
chez Analog Devices, Inc., peut mettre en oeuvre les 
fonctions des convertisseurs 142, 144, 146 et 148. 

Le ADC video 132, qui peut etre mis en oeuvre par, 
par exemple, un circuit integre KS0122 disponible chez 

35 Samsung Semiconductor, Inc., se relie a une camera video 
ou autre source d'un signal video et numerise le signal 
video en une serie de valeurs d' elements d' image. La 
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carte multimedia 100 comprime ou encode les valeurs 
d' elements d 1 image selon un standard d'encodage video tel 
que MEPG, JPEG, ou H.324 implantes dans le micrologiciel 
execute par le processeur multimedia 110. Les donnees 
5 video encodees peuvent alors §tre transmises a 
l'ordinateur hote par 1 ' intermediate du bus local 105, a 
un dispositif tel qu'une carte Ethernet couplee au bus 
local 105 ou etre de plus encodees pour transmission sur 
une ligne telephonique couplee au DAC de communication 
10 148. 

Le DAC video 134 convertit une serie d' echantillons 
numeriques du processeur multimedia 110 en un signal 
video analogique pour un moniteur video ou une 
television. Le DAC video 134 peut etre mis en oeuvre, par 

15 exemple, par un circuit integre KS0119 disponible chez 
Samsung Semiconductor, Inc., selon un standard video NTSC 
ou PAL. Le processeur multimedia 110 peut produire la 
serie d' echantillons numeriques pour le DAC video 134 sur 
la base de donnees regues de l'ordinateur hote, d'un 

20 autre dispositif couple au bus local 105, d 1 une camera 
video couplee au ADC video 132 ou d'une ligne 
telephonique couplee au ADC de communication 146. 

Un composant optionnel de la carte multimedia 100 
est un controleur graphique 150 qui partage la memoire 

25 locale 120 avec le processeur multimedia 110 et fournit 
un signal video a un moniteur video pour le systeme hote. 
Le controle graphique 150 peut etre mis en oeuvre, par 
exemple, par un controleur graphique super VGA disponible 
chez divers vendeurs, tels que Cirrus Logic, S3, ou 

30 Trident Microsystems. Le processeur multimedia 110 
produit et memorise des topographies d' elements d' image 
dans la memoire locale 120 de laquelle le controleur 
graphique 150 produit un signal video pour le moniteur 
video. 

35 Le ADC audio 142 et le DAC audio 144 sont pour 

1' entree et la sortie de signaux audio analogiques. Selon 
un aspect de 1' invention, la carte multimedia 100 simule 
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les fonctions d f une carte de son, telle que la populaire 
"SoundBlaster" et met en oeuvre des fonctions de synthese 
de son telles que synthese de table d'ondes et synthese 
FM. Pour des simulations de carte de son, un programme 
5 d' application execute par I'ordinateur hote fournit des 
donnees representant un son et le processeur multimedia 
110 produit des amplitudes de son selon ces donnees. Le 
DAC 144 convertit des amplitudes de son en un signal 
audio analogique pour un haut-parleur ou un 
10 amplificateur. Le processeur multimedia 110 traite de 
fagon similaire des signaux audio d' entree du ADC audio 
142. 

Le ADC de communication 146 echantillonne un signal 
analogique d'une ligne telephonique et fournit des 

15 echantillons numerises au processeur multimedia 110. La 
maniere dont le processeur multimedia 110 traite les 
echantillons numerises depend de la f onction mise en 
oeuvre dans le micrologiciel . Par exemple, le processeur 
multimedia 110 peut mettre en oeuvre des fonctions modem 

20 en executant des programmes dans le micrologiciel qui 
accomplit une demodulation V.34 des echantillons et une 
correction et une decompression d'erreur V.42 bis. Le 
processeur multimedia 110 peut egalement comprimer des 
donnees regues de l'ordinateur hote et produire des 

25 echantillons numeriques representant un signal analogique 
module correctement pour transmission par le DAC de 
communications 148. De fagon similaire, le processeur 
multimedia 110 peut mettre en oeuvre des fonctions de 
machine de reponse, de telecopie ou videophone utilisant 

30 le meme materiel (ADC 146 et DAC 148) que l f interface 
avec des lignes telephoniques si un micrologiciel ou un 
logiciel convenable est disponible. 

La figure 2 represente un schema blocs d'un mode de 
realisation du processeur multimedia 110. Le processeur 

35 multimedia 110 comprend un noyau de traitement 200 qui 
contient un processus a tout usage 210 et un processeur 
de vecteurs 220. Comme ici utilise, le terme processeur 
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de vecteurs se refere a un processeur qui execute des 
instructions ayant des operandes de vecteurs, c'est-a- 
dire des operandes contenant chacun des elements de 
donnees multiples du raeme type. Chaque processeur a tout 
5 usage 210 et processeur de vecteur 220 execute un chemin 
de programme separe et peut etre un processeur scalaire 
ou super scalaire. 

Dans le mode de realisation a titre d'exemple, le 
processeur a tout usage 210 est un processeur RISC 32 

10 bits qui fonctionne a 40 Mhz et se conforme au jeu 
d' instructions standard ARM7. L 1 architecture pour un 
processeur RISC ARM7 et le jeu d' instructions ARM7 sont 
decrits dans le ARM7DM Data Sheet disponible chez 
Advanced RISC Machines Ltd. Le processeur a tout usage 

15 210 met en oeuvre egalement une extension du jeu 
d 1 instructions ARM7 qui comprend des instructions pour 
une interface au processeur de vecteurs 220. La demande 
de brevet en instance, ayant pour titre "System and 
Method for Handling Software Interrupts with Argument 

20 Passing" qui a ete incorporoe en reference ci-dessus 
deer it 1' extension au jeu d' instructions ARM7 pour le 
mode de realisation a titre d'exemple de 1' invention. Le 
processeur a tout usage 210 est relie au processeur de 
vecteurs 220 par le bus de commande 212 pour accomplir 

25 1' extension du jeu d f instructions ARM7. De plus, une 
ligne d' interruption 222 est utilisee par le processeur 
de vecteurs 220 pour requerir une interruption sur le 
processeur a tout usage 210. 

Le processeur de vecteurs 220 a une architecture 

30 SIMD (donnees multiples a instruction unique) et traite a 
la fois des quantites scalaires et vectorielles . Dans le 
mode de realisation a titre d'exemple, le processeur de 
vecteurs 220 consiste en une unite de traitement centrale 
RISC en file d'attente qui fonctionne a 80 Mhz et a un 

35 fichier de registre de vecteurs de 288 bits. Chaque 
registre de vecteurs dans le fichier de registre de 
vecteurs peut contenir jusqu*a 32 elements de donnees. Le 
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tableau 1 represente les types de donnees supportees pour 
des elements de donnees dans un vecteur. 

TABLEAU 1 



I Type 
donnees 


Dimension 
donnee 


Interpretation 


int8 


8 bits (octet) 


entier complement a 2 8 bits 
entre -128 et 127 


int9 


9 bits 
(octet 9) 


entier complement a 2/9 bits 
entre -256 et 255 


intl6 


16 bits 
(demi-mot) 


entier complement a 2 16 
bits entre -32,768 et 32,767 1 


int32 


32 bits 
(mot) 


entier complement a 2 32 
bits entre -2147483648 et 
2147483647 


ecart 


32 bits 
(mot) 


nombre points ecart 32 bits 
se conformant au format de 
precision unique IEEE 754 



5 



Ainsi, un registre de vecteurs peut maintenir 32 
elements de donnees entier de 8 bits ou 9 bits, 16 
elements de donnees entier de 16 bits ou 8 elements 
entier ou points d'ecart 32 bits. Additionnellement, le 

10 mode de realisation a titre d'exemple peut egalement 
fonctionner sur un operande de vecteurs a 576 bits 
fractionnant deux registres de vecteurs. 

Le jeu d' instructions pour le processeur de 
vecteurs 220 comprend des instructions pour manipuler des 

15 vecteurs et pour manipuler des scalaires . La demande de 
brevet ayant pour titre "Single-Instruction-Multiple-Date 
Processing in a Multimedia Signal Processor", qui a ete 
incorporee par reference ci-dessus, decrit le jeu 
d* instructions pour le mode de realisation a titre 

20 d'exemple de 1' invention et une architecture pour mettre 
en oeuvre le jeu d' instructions . 

Le sous-systeme antememoire 230 contient un bloc 
SRAM 260, qui est represente graphiquement en deux blocs, 
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une ROM 270 et une commande antememoire 280. Le sous- 
systeme antememoire 230 peut configurer le bloc SRAM 260 
en (i) un cache d» instructions 262 et un cache de donnees 
264 pour le processeur a tout usage 210 et (ii) un cache 
5 d 1 instructions 292 et un cache de donnees 294 pour le 
processeur de vecteurs 220. Une ROM 270 sur pastille qui 
contient des donnees et des instructions pour le 
processeur general 210 et le processeur de vecteurs 220 
peut egalement etre configuree en un cache. Dans le mode 

10 de realisation a titre d'exemple, la ROM 270 contient : 
des procedures de reinitialisation et d 1 initialisation ; 
des procedures de diagnostics d' auto-test ; des modules 
logiciel d' interruption et d' exception ; et des sous 
routines pour une emulation "soundblaster" (programmation 

15 de son) ; des sous routines pour traitement de signal de 
modem V.34 ; des fonctions de telephonie generale ; des 
bibliotheques de sous routines graphiques a 2 dimensions 
et 3 dimensions ; et des bibliotheques de sous routines 
pour des standards audio et video tels que MEPG-1, MEPG- 

20 2, H.261, H.263, G.728 et G.723. 

La figure 3 illustre les relations entre le 
materiel et le logiciel ou le micrologiciel dans une 
application de la carte multimedia 100 dans un systeme 
d'ordinateur hote 300. Le systeme d'ordinateur hote 300 a 

25 un processeur primaire 310 qui execute des programmes 
memorises dans une memoire principale 320. Dans le mode 
de realisation a titre d'exemple, le systeme d'ordinateur 
hote 300 est un ordinateur domestique compatible IBM 
coprenant un microprocesseur du type x86 et les 

30 programmes executes par le systeme d'ordinateur hote 300 
comprennent un programme d f application 330, tourriant sous 
un systeme de fonctionnement tel que Windows™ 95 ou NT. 
Le programme d' application 330 peut communiquer avec la 
carte multimedia 100 par 1 ' intermediate de logiciels de 

35 pilotage du dispositif 342. Les logiciels de pilotage du 
dispositif 342 se conforment au logiciel de pilotage du 
dispositif API du systeme de fonctionnement. 
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Les logiciels de pilotage ou pilotes de dispositifs 
sont typlquement pourvus de chaque carte multimedia 100 
puisque des modes de realisation differents de la carte 
multimedia 100 peuvent avoir des implantations 
5 differentes de materiel telles que des topographies de 
registres differents et des niveaux d f interruption 
differents. Le logiciel de pilotage de dispositif doit 
transformer correct ement les signaux de commande 
necessites par le mode de realisation particulier de la 

10 carte multimedia 100 en signaux de commande tels que 
definis par le logiciel de pilotage de dispositif API du 
systeme de fonctionnement. Typiquement, le systeme de 
fonctionnement s'attendra a un logiciel de pilotage de 
dispositif different pour chaque dispositif tel qu'un 

15 logiciel de pilotage de modem, un logiciel de pilotage 
graphique et un logiciel de pilotage audio. Ainsi, si un 
mode de realisation de la carte multimedia 100 combine la 
fonctionnalite d'une carte audio, d'un modem et une carte 
graphique, trois logiciels de pilotage de dispositifs 

20 separes sont typiquement exiges par le systeme de 
fonctionnement. 

Le processeur a tout usage 210 dans le processeur 
multimedia 110 execute un systeme de fonctionnement en 
temps reel 360 qui controle des communications avec les 

25 logiciels de pilotage de dispositifs 342. Le processeur a 
tout usage 210 accomplit egalement des taches generales 
370. Le processeur de vecteurs 220 accomplit des tfiches 
vectorielles 380. 

Le sous-systeme antememoire 230 (figure 2) couple 

30 egalement les processeurs generaux 210 et les processeurs 
de vecteurs 220 a deux bus systeme : IOBUS 240 et FBUS 
250. IOBUS 240 fonctionne typiquement a une frequence 
inferieure a FBUS 250. Des dispositifs a Vitesse plus 
lente sont couples au IOBUS 240, tandis que des 

35 dispositifs a vitesse plus elevee sont couples au FBUS 
250. En separant les dispositifs a vitesse plus lente des 
dispositifs a vitesse plus elevee, les dispositifs a 
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vitesse plus lente sont empeches d 1 avoir indument un 
impact sur la performance des dispositifs a vitesse plus 
elevee. 

Le sous-systeme antememoire 230 sert egalement 
5 comme commutateur pour une communication entre le IOBUS 
240, le FBUS 250, le processeur general 210 et le 
processeur de vecteurs 220. Dans la plupart des modes de 
realisation du sous-systeme antememoire 230, des acces 
simultanes multiples entre les bus et les processeurs 

10 sont possibles. Par exemple, le processeur de vecteurs 
220 est capable de communiquer avec le FBUS 250 en meme 
temps que le processeur a tout usage 210 communique avec 
le IOBUS 240. Dans un mode de realisation de 1' invention, 
la combinaison du commutateur et de la fonction cache est 

15 accomplie en utillsant des techniques de topographie 
directe pour le FBUS 250 et le IOBUS 240. Specif iquement, 
les dispositifs sur le FBUS 250 et le IOBUS 240 peuvent 
etre accedes par le processeur a tout usage 210 et le 
processeur de vecteurs 220 par des lectures et ecritures 

20 de memoire standards a des adresses appropriees. 

La figure 5 represente la topographie de memoire 
d'un mode de realisation de l f invention. Le bloc memoire 
510, c'est-a-dire l f espace d'adresse du zero d'adresse 
d' octet a la 4M - 1 adresse (les unites M et V, qui sont 

25 utilisees dans la presente description comme unites pour 
des adresses de memoire, representent les nombres 
1 048 576 (c'est-a-dire 1024 x 1024) et 1 073 741 824 
(c'est-a-dire 1024 x 1024 x 1024)), est occupe par la ROM 
270. Le bloc memoire 520, c'est-a-dire l'espace d'adresse 

30 de 1' adresse d' octet 4M a 8M - 1, est occupe par le bloc 
SRAM 260. Le bloc memoire 530, c'est-a-dire l'espace 
d'adresse de 1' adresse d' octet 8M a 1* adresse d f octet 72M 
1, est occupe par la memoire locale 120. Les 
dispositifs sur le FBUS 250 sont topographies au bloc 

35 memoire 540 qui demarre apres 1 'adresse d' octet 72M et 
s'etend a 1' adresse d' octet 77M. Le bloc memoire 550 est 
reserve pour 1' expansion future. Les dispositifs sur le 
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IOBUS 240 sont topographies au bloc memoire 560, qui 
demarre apres l'adresse d' octet 125M et s'etend a 
l'adresse d' octet 128M - 1. Le bloc memoire 570 est 
egalement reserve pour une expansion future. Le bloc 
5 memoire 580, c'est-a-dire l'espace d'adresses de 
l'adresse d' octet 2G a l'adresse d' octet 4G-1, est occupe 
par d'autres dispositifs d'ordinateur hote et est 
typiquement accede par I 1 interface de bus local 255. 

Le FBUS 250 (figure 2) est relie a un controleur de 

10 memoire 258, un controleur de DMA 257, une interface de 
bus local 255 et une interface de dispositif 252 qui 
fournissent des interfaces respectivement pour la memoire 
locale 120, le bus local 105 et des convertisseurs 132, 
134, 142, 144, 146, 148 et 150 representes en figure 1. 

15 Le controleur de memoire 258 controle des lectures 

et ecritures a la memoire locale 120. Dans le mode de 
realisation a titre d'exemple, le controleur de memoire 
258 controle une banque de DRAMs (deux pastilles SRAM 
1Mx16) configuree pour utiliser 24 a 26 bits d'adresses 

20 et 32 bits de donnees et ayant les caracteristiques s (i) 
d'un protocole de rafraichissement "CAS-avant-RAS", 
accompli a une frequence de rafraichissement 
programmable, (ii) d' ecritures partielles qui 
initialisent des operations de lecture-modi fication- 

25 ecriture et (iii) d'entrelacement de banques internes. Le 
controleur de memoire 258 fournit egalement un accord de 
frequence de 1:1 entre la memoire 120 et le FBUS 250, "a 
la fois une precharge de banque" manuelle et une mise en 
file d'attente d'adresses et de donnees pour mieux 

30 utiliser le FBUS 250. Les DRAMs synchrones sont connues 
pour efficacement fonctionner a de telles frequences (80 
MHz) et des DRAMs de page virtuelle rapide standard et 
des DRAMs de donnees etendues (EDO) pourraient etre 
egalement utilisees. Des controleurs de DRAM a capacites 

35 similaires au controleur de memoire 258 dans le mode de 
realisation a titre d'exemple sont connus dans l'art. 
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Le controleur de DMA 257 controle des acces directs 
en memoire entre la memoire principale de l'ordinateur 
hote et la memoire locale du processeur multimedia 200. 
De tels controleurs DMA sont bien connus dans I'art. Dans 
5 certains modes de realisation de 1' invention, un 
transfert de donnees de memoire est inclus. Le transfert 
de donnees de memoire accomplit un acces direct en 
memoire d'un bloc de memoire a un autre bloc de memoire. 

L f interface de bus local 255 met en oeuvre le 

10 protocole exige pour des communications avec l'ordinateur 
hote par 1 * intermediate du bus local 105. Dans le mode 
de realisation a titre d'exemple, 1" interface de bus 
local 255 realise une interface a un bus PCI de 32 bits, 
33 MHz. De telles interfaces sont bien connues dans 

15 l'art. 

L' interface de dispositif 252 fournit une interface 
de materiel pour des dispositifs tels que les 
convertisseurs 132 , 134, 142, 144, 146, 148 et 150 qui 
seraient typiquement sur une plaque a circuit imprime 

20 avec le processeur multimedia 110* L ' interface de 
dispositif 252 peut etre personnalisee pour 1 'application 
particuliere du processeur multimedia 110. En 
particulier, l 1 interface de dispositif 252 pourrait 
seulement realiser une interface pour des dispositifs 

25 specif iques ou des circuits integres. Des unites typiques 
dans l f interface du dispositif 252 realisent une 
interface pour connexion de ADCs , DACs ou CODECS 
standards. Les conceptions pour des interfaces ADC, DAC 
et CODEC sont bien connues dans l'art et non davantage 

30 decrits ici. D'autres interfaces qui pourraient utilisees 
comprennent une interface ISDN pour telephone numerique 
et des interfaces pour des bus tels que pour un bus de 
microcanaux, mais ne sont pas limitees a celles-ci. Dans 
un mode de realisation du processeur multimedia 110, 

35 1' interface du dispositif 252 est un ASIC (circuit 
integre d' application sepcifique) qui peut etre programme 
pour accomplir une f onctionnalite souhaitee. 



18 



2752466 



Le IOBUS 240 fonctionne a une frequence (40 MHz) 
qui est inferieure a la frequence de f onctlonnement (80 
MHz) du bus 250. Couples au IOBUS 240 sont une 
temporisation de systeme 242, un UART 243 (interface de 
5 transmission asynchrone), un processeur de flux de bits 
248 et un controleur d' interruption 245. La temporisation 
de systeme 242 interrompt le processeur 210 a des 
intervalles planifies qui sont selectionnes en ecrivant a 
des registres correspondant a la temporisation de systeme 

10 242. Dans le mode de realisation a titre d'exemple, la 
temporisation de systeme 242 est un Intel 8254 standard 
compatible a la temporisation d'intervalle ayant trois 
compteurs independants de 16 bits et six modes de 
compteurs programmables . 

15 L 1 UART 243 est une interface serie, qui est 

compatible avec le circuit integre UART 16450 tres connu, 
pour utilisation dans un modem ou des applications de 
telecopie qui exige un port de communication serie 
standard ("COM") d'un ordinateur domestique. 

20 Le processeur de flux de bits 245 est un processeur 

de materiel fixe qui accomplit les fonctions specif iques 
sur un flux de bits d' entree ou de sortie. Dans le mode 
de realisation a titre d'exemple, le processeur de flux 
de bits 245 accomplit des etages initiaux ou finaux de 

25 codage ou de decodage MPEG. En particulier, le processeur 
de flux de bits 245 accomplit un codage et un decodage de 
longueur variable (Huffman) et comprime et decomprime des 
donnees video en format en "zig-zag". Le processeur de 
flux de bits 245 fonctionne en parallele avec le 

30 processeur a tout usage 210 et le processeur de vecteurs 
220 et sous le controle de ceux-ci. Les processeurs 210 
et 220 configurent le processeur de flux de bits 245 par 
1' intermediate de registres de controle. La demande de 
brevet US en instance ayant pour titre "Methods and 

35 Apparatus for Processing Video Data", qui a ete 
incorporee a titre de reference ci-dessus, decrit un mode 
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de realisation a titre d'exemple du processeur a flux de 
bits 245. 

Le controleur d' interruption 248 commande des 
interruptions du processeur a tout usage 210 et supporte 
5 des priorites d 1 interruption multiples. Un regis tre de 
masquage est prevu pour permettre a chaque priorite 
d' interruption d'etre masquee individuellement. Dans le 
mode de realisation a titre d'exemple, le controleur 
d • interruption 245 est programmable et met en oeuvre le 

10 systeme d' interruption standard Intel 8259 qui est commun 
aux ordinateurs domestiques a base du x86. Une 
interruption de priorite la plus elevee (niveau 0) est 
attribute a la temporisation du systeme 242. Des niveaux 
de priorite 1/2, 3 et 7 sont respectivement attribues a 

15 une memoire tampon d 1 image virtuelle, un controleur de 
DMA 257 et une interface de dispositif 252 , un processeur 
de flux de bits 245, une interface de bus local 255 et un 
UART 243. Des niveaux de priorite d' interruption 4, 5 et 
6 ne sont pas attribues dans le mode de realisation a 

20 titre d'exemple de 1' invention. La memoire tampon d 1 image 
virtuelle au niveau de priorite 1, qui est incluse dans 
certains modes de realisation de 1' invention, simule une 
memoire tampon d' image VGA standard. 

La figure 4 represente un schema blocs du sous- 

25 systeme antememoire 230. Le bloc SRAM 260 est dlvise en 
quatre banques de memoire pour former un cache 
d' instructions 262 et un cache de donnees 264 pour 
utilisation avec le processeur general 210, ainsi qu'un 
cache d' instructions 292 et un cache de donnees 294 pour 

30 utilisation avec le processeur de vecteurs 220/ Le bloc 
SRAM 260 contient egalement une section de reference 406, 
qui est sous divisee pour chacune des banques de memoire. 
Le bloc SRAM 260 est un circuit de memoire a double port 
avec un port de lecture 440 et un port d'ecriture 430, de 

35 sorte qu'une lecture et une ecriture simultanees du bloc 
SRAM 260 est supportee. Le sous-systeme antememoire 230 
contient egalement un cache de ROM 270, ayant une image 
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de reference 472. Comme explique ci-dessus le cache de 
ROM 270 contient des instructions frequemment utilisees 
et des donnees pour le processeur general 210 et le 
processeur de vecteurs 220. Bien que 1' image de reference 
5 472 ne puisse pas etre modifiee, des adresses 
individuelles peuvent etre marquees comme invalides de 
sorte que des donnees ou des instructions peuvent etre 
amenees de la memoire a utiliser a la place de donnees ou 
des instructions dans la ROM 270. 

10 Une file d'attente de donnees 410 accomplit la 

fonction de commutateur de donnees du sous-systeme 
antememoire 230. La file d'attente de donnees 410 est 
capable de creer des trajets de communications de donnees 
simultanees multiples entre le IOBUS 240, le FBUS 250, le 

15 processeur a tout usage 210, le processeur de vecteur 220 
et le bloc SRAM 260. De fagon similaire, la file 
d'attente d 1 adresses 420 accomplit des fonctions de 
commutation pour des adresses. Dans le mode de 
realisation de la figure 4, le IOBUS 240 et le FBUS 250 

20 utilisent un multiplexage temporel pour des signaux 
d 1 adresses de donnees. La commande antememoire 280 
fournit les lignes de commande a la file d'attente de 
donnees 410 et a la file d'attente d' adresses 420 pour 
configurer correctement les canaux de communication. 

25 Dans certains modes de realisation de ce systeme 

antememoire 230 , un protocole a base de transactions est 
utilise pour supporter toutes les operations de lecture 
et d'ecriture. Toute unite couplee a ce systeme 
antememoire 230, telle que le processeur general 210, le 

30 processeur de vecteurs 220 ou les divers dispositifs sur 
le IOBUS 240 et le FBUS 250, peut placer unie requete au 
sous-systeme antememoire 230. Une telle requete est 
formee par un code d 1 identification de dispositif 
("dispositif ID M ) et une adresse de 1 'emplacement de 

35 memoire requis. Chaque unite a un dispositif ID distinct 
et le sous-systeme antememoire 230 peut privilegier les 
requetes basees sur le dispositif ID de 1 'unite realisant 
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la requete. Lorsque les donnees a l'adresse requise 
deviennent disponibles, le sous-systeme antememoire 
repond au dlspositif ID, a un code d 1 identification de 
transaction ("transaction ID"), a l'adresse et aux 
5 donnees requises. Si l'adresse requise n'est pas contenue 
dans le bloc SRAM 260 ou la ROM 270, le sous-systeme 
antememoire 230 ne sera pas capable de repondre a la 
requete specif ique pendant plusieurs cycles d'horloge 
alors que les donnees a l'adresse de memoire sont 

10 retirees. Cependant, alors que les donnees d'une premiere 
requete sont en train d'etre retirees, le sous-systeme 
antememoire 230 est capable de traiter une seconde 
requete d'une unite differente avec un dispositif ID 
different. De cette maniere, la requete en instance ne 

15 bloquera pas des requetes subsequentes d'autres unites* 
De plus, le sous-systeme antememoire 230 peut supporter 
une requete de lecture et une requete d'ecriture 
simultanement dans un cycle unique. 

Comme explique ci-dessus, le bloc SRAM 260 est 

20 divise en quatre banques de memoire. Le bloc SRAM 260 est 
a double port, ayant un port de lecture 440 et un port 
d'ecriture 430, de sorte que dans n'importe quel cycle, 
le bloc SRAM 260 peut accepter une requete de lecture et 
une requete d'ecriture. La section TAG (reference) 406 du 

25 bloc SRAM 260 doit avoir deux ports de lecture pour 
supporter les requetes de lecture et d'ecriture 
simultanees. Ainsi, l'adresse utilisee par le port de 
lecture 440 ainsi que l'adresse utilisee par le port 
d'ecriture 430 peuvent etre comparees a des references 

30 cache pour reussir ou rater des conditions simultanement. 
La section de reference 406 contient egalement un port 
d'ecriture de sorte que comme la requete d'ecriture au 
port d'ecriture 430 est accomplie, les zones de reference 
appropriees sont egalement changees. 

35 Dependant des contraintes du systeme global, le 

sous-systeme antememoire 230 peut etre utilise avec des 
politiques de cache soit de reponse soit de 
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surimpression. De plus, dans certains modes de 
realisation, pour augmenter davantage la vitesse, la 
dimension de lignes de cache peut etre rendue deux fois 
la largeur de donnees. Dans ces modes de realisation, 
5 pour des buts de "conservation de dossier", on doit 
attribuer a chaque ligne de cache deux bits valides et 
deux bits modifies, puisque chaque ligne de cache 
contient deux vecteurs. Le bloc SRAM 260 doit egalement 
effacer globalement tous les bits valides si un signal 

10 d'effacement global est regu. Dans d'autres modes de 
realisation, des signaux d'effacement individuels sont 
supportes pour chaque banque dans le bloc SRAM 260. 

La figure 6 est un schema blocs d'un mode de 
realisation d'une file d'attente de donnees 410. Puisque 

15 le sous-systeme antememoire 230 est a la fois un systeme 
antememoire et un commutateur pour le IOBUS 240, le FBUS 
250, le processeur a tout usage 210 et le processeur de 
vecteurs 220, les bus et le processeur doivent etre 
capables de communiquer soit a travers le cache soit 

20 directement si le cache est en train d' etre utilise par 
un autre dispositif. Les processeurs sont generalement 
plus rapides que les dispositif s sur les bus ; de ce 
fait, les processeurs utiliseront generalement le cache 
sur des ecritures et permettront au systeme de retour 

25 d'ecriture de cache de placer des donnees au dispositif 
de bus approprie. De fagon similaire, les processeurs 
requierent generalement des informations du cache plutot 
que des dispositifs directement. Si le cache ne contient 
pas les donnees requises, les processeurs reposent 

30 typiquement sur le sous-systeme antememoire pour retirer 
les donnees requises dans le cache et produire les 
donnees aux processeurs. Cependant, lorsque le cache est 
occupe les processeurs peuvent acceder directement aux 
bus. 

35 Les donnees sont transferees du processeur a tout 

usage 210 au IOBUS 240 par un multiplexeur entree/sortie 
MUX 10 630. Des donnees du IOBUS 240 au processeur a tout 
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usage 210 passent a travers le multiplexeur MUX 620 de 
lecture universelle. Des donnees sont transferees soit du 
bloc SRAM 2€0 soit de la ROM 207 au processeur a tout 
usage 210 a travers le multiplexeur MUX 650 de lecture de 
5 cache et le multiplexeur MUX 620 de lecture universelle, 
Des donnees sont transferees du processeur universel 210 
au bloc SRAM 260 par le multiplexeur MUX 610 d'ecriture 
de cache . Le multiplexeur MUX 650 de lecture de cache, le 
multiplexeur MUX 610 d'ecriture de cache , le multiplexeur 

10 630 IO (entree/sortie) et le multiplexeur MUX 620 de 
lecture universelle peuvent etre des multiplexeurs 
conventionnels et peuvent contenir des circuits de 
verrouillage internes ou des registres comme necessaire 
pour des contraintes de temporisation, Les lignes de 

15 commande de selection (non representees) des 
multiplexeurs sont dictees par une commande de cache 280 
(figure 4). Des donnees sont transferees du processeur 
universel 210 au FBUS 250 par le multiplexeur MUX 610 a 
ecriture de cache et le multiplexeur MUX 640 du FBUS, Des 

20 donnees du FBUS 250 au processeur universel 210 sont 
analysees par un circuit ou memoire tampon 660, le 
multiplexeur MUX 650 de lecture de cache et le 
multiplexeur MUX 620 de lecture universelle. Pour 
accomplir ces fonctions, la memoire tampon 660 peut etre 

25 une memoire tampon, un circuit de verrouillage ou un 
registre conventionnel . 

Le processeur a tout usage 210 peut commander le 
processeur de vecteurs 220 par des lignes de commande 212 
(figure 2). Un transfert de donnees direct entre le 

30 processeur a tout usage 210 et le processeur de vecteurs 
220 n'est generalement pas requis mais peut etre accompli 
par le bloc SRAM 260 ou n'importe quel autre dispositif 
puisque les deux processeurs partagent une topographie de 
memoire commune. 

35 Des donnees de la ROM 270 et du bloc SRAM 260 au 

IOBUS 240 circulent a travers le multiplexeur de lecture 
de cache 650 et le multiplexeur d' entree/sortie 630. Des 
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donnees du IOBUS 240 au bloc SRAM 260 circulent a travers 
le multiplexeur d'ecriture de cache 610. Des donnees du 
IOBUS 240 au FBUS 250 passent a travers le multiplexeur 
d'ecriture de cache 610 et le multiplexeur FBUS 640. Des 
5 donnees pour le IOBUS 240 du FBUS 250 passent a travers 
la memoire tampon 660, le multiplexeur de lecture de 
cache 650 et le multiplexeur d 1 entree/sortie 630. Des 
donnees pour 1" IOBUS 240 du processeur de vecteurs 220 
passent a travers le multiplexeur d'ecriture de cache 610 

10 et le multiplexeur d' entree/sortie 630. Des donnees du 
IOBUS 240 au processeur de vecteurs 220 passent a travers 
le multiplexeur de lecture de cache 650. Dans certains 
modes de realisation de 1' invention, la file d'attente 
directe pour des donnees du processeur de vecteurs 220 au 

15 IOBUS 240 est eliminee pour simplifier la conception de 
la file d'attente de donnees 410. Puisque la largeur de 
bande du processeur de vecteurs 220 est beaucoup plus 
grande que la largeur de bande du IOBUS 240, un traijet de 
communication direct du processeur de vecteurs 220 au 

20 IOBUS 240 devient tres inefficace par rapport au temps de 
traitement du processeur de vecteurs 220. 

Des donnees pour le FBUS 250 au bloc SRAM 260 et la 
ROM 270 passent a travers le multiplexeur de lecture de 
cache 650 et le multiplexeur du FBUS 640. Des donnees du 

25 FBUS 250 au bloc SRAM 260 passent a travers la memoire 
tampon 660 et le multiplexeur d'ecriture de cache 610. 
Des donnees du FBUS 250 peuvent directement atteindre le 
processeur de vecteurs 220 par la memoire tampon 660 et 
le multiplexeur de lecture de cache 650. Des donnees pour 

30 le FBUS 250 peuvent egalement venir directement du 
processeur de vecteurs 220 a travers le multiplexeur 
d'ecriture de cache 610 et le multiplexeur FBUS 640. 

Des donnees du processeur de vecteurs 220 circulent 
au bloc SRAM 260 a travers le multiplexeur d'ecriture de 

35 cache 610. Des donnees du bloc SRAM 260 et de la ROM 270 
passent a travers le multiplexeur de lecture de cache 650 
au processeur de vecteurs 220. 
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La figure 7 est un schema blocs detaille d'un 
second mode de realisation de la file d'attente de 
donnees 410. Puisque la fonctionnalite du mode de 
realisation de la figure 7 est similaire a la 
5 fonctionnalite du mode de realisation de la figure 6, 
seulement les differences entre les modes de realisation 
sont discutees en detail. Cependant, les organisations 
generales des elements dans chaque mode de realisation 
sont egalement decrites. En figure 7, le multiplexeur de 

10 lecture de cache 650 est remplace par le multiplexeur de 
lecture de cache 750 et le verrouilleur multiplexeur 751. 
La memoire tampon 660 est remplacee par le verrouilleur 
de lecture 760. Le multiplexeur FBUS 640 est remplace par 
le multiplexeur FBUS 640, le verrouilleur de donnees 

15 d'ecriture (WB) 741, le verrouilleur d'ecriture de 
memoire 742 et le verrouilleur d'ecriture de memoire 743. 
Les verrouilleurs dans le mode de realisation de la 
figure 7 sont utilises pour mettre en file d'attente la 
fil d'attente de donnees. Le multiplexeur d'ecriture de 

20 cache 610 est remplace par le multiplexeur d'ecriture de 
cache 710, le verrouilleur de donnees d'ecriture 712, un 
dispositif aligneur 713 et un verrouilleur d'ecriture 
d' entree/sortie 711. Le multiplexeur d' entree/sortie 630 
est remplace par le verrouilleur de lecture 

25 d' entree/sortie 731 et le verrouilleur de lecture 
d' entree/sortie 732. Le multiplexeur de lecture universel 
620 est remplace par le verrouilleur d'ecriture 
d f entree/sortie 721 et le micro antememoire 722. 

Le micro cache 722 couple 1 ' antememoire principal, 

30 le bloc SRAM 270 et la ROM 260 au processeur a tout usage 
210. Le micro cache 722 est divise en un micro cache 
d' instructions et un micro cache de donnees, dont chacun 
comprend une portion de reference 822 (figure 8), des 
comparateurs de reference et des bits valides. Le micro 

35 cache 722 fonctionne comme une memoire tampon de 
prelecture. L'adresse d'une requete du processeur a tout 
usage 210 est tout d'abord comparee a la portion de 
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reference 822 du micro cache 722. Si un manqueraent du 
micro cache se produit (c 'est-a-dire aucun accord dans la 
reference de micro cache 822) l'adresse de la requete 
avec l'adresse et autres informations de commande est 
5 transmise a 1 ' antememoire principal. Pour simplifier le 
micro cache 722, des ecritures de donnees du processeur a 
tout usage 210 qui accorde une reference dans le micro 
cache 722 invalident l'adresse de micro cache de sorte 
que les donnees ecrites doivent etre transmises au micro 
10 cache principal. De cette maniere, une coherence de 
caches peut etre maintenue sans conceptions pour 
reecriture et sur ecriture complexes sur le micro cache 
722. 

La figure 8 represente un schema blocs d'un mode de 

15 realisation d'une file d'attente d'adresses 420. 
L 1 interface FBUS est composee d'une file d'attente 
d'adresses a quatre entrees et d'un verrouilleur de pre- 
ecriture. L f interface FBUS 850 peut simultanement 
supporter une lecture en instance de 1 'antememoire 

20 d' instructions 262, une lecture en instance de 
1 ' antememoire d' instructions 292, une requete d'ecriture 
de 1' antememoire de donnees 294 et une requete de re- 
ecriture de 1 1 antememoire de donnees 294. Les adresses 
pour les requetes d'ecriture sont transmises au 

25 multiplexeur d'adresses d'ecriture 210 tandis que les 
adresses pour les requetes de lecture sont transmises au 
multiplexeur d'adresses de lecture 820. Un controleur 
d 1 antememoire 280 (figure 2) accomplit un arbitrage entre 
des requetes du processeur a tout usage 210, du 

30 processeur de vecteurs 220, du IOBUS 240 et du FBUS 250 
sur la base du dispositif ID de la requete. Le controleur 
d 1 antememoire 280 configure alors les diverses 
multiplexeurs de la file d'attente de donnees 410 et de 
la file d'attente de donnees 420 pour maintenir les 

35 requites. Le schema d' arbitrage peut etre decide sur la 
base d f une estimation de 1' importance de chaque 
dispositif. De fagon typique, on donne au processeur a 
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tout usage 210 la priorite la plus elevee. Comme explique 
ci-dessus, le sous-systeme antememoire 230 est capable 
d' operations de lecture et d'ecriture simultanees . De ce 
fait, des comparateurs separes sont necessaires pour les 
5 requetes de lecture et d'ecriture. Le comparateur 811 est 
utilise pour comparer l'adresse d'ecriture du 
multiplexeur d' adresses d'ecriture 810 aux adresses 
regues par le port de reference d'ecriture 406-1 pour 
determiner si l'adresse d'ecriture de la requete actuelle 

10 se trouve dans l 1 antememoire. Si l'adresse est dans 
1 ' antememoire, 1 'antememoire est remis a jour par les 
nouvelles donnees a 1 ' emplacement d 1 antememoire d 1 accord. 
Si l'adresse n'est pas dans I 1 antememoire, l'adresse et 
les donnees sont ecrites a 1 ' antememoire dans un 

15 emplacement d' antememoire non utilise ou 1 'emplacement 
qui est le moins accede recemment. Eventuellement, les 
donnees sont transmises au dispositif cartographie 
adresse direct correct en utilisant des techniques 
d ' antememoire a re-ecriture ou surecriture. 

20 Le comparateur 821 est utilise pour comparer 

1 1 adresse de lecture de requete de lecture du 
multiplexeur d' adresses de lecture 820 et les adresses 
regues par le port de reference de lecture 406-2. Si une 
reference Concorde avec l'adresse de lecture, les donnees 

25 associees a la reference sont transmises au dispositif de 
requete en utilisant la file d'attente de donnees 410. 
Comme explique ci-dessus, si un protocole de transaction 
est utilise, les donnees seront retournees a un 
dispositif ID, une transaction ID et l'adresse requise. 

30 Si aucune reference ne Concorde avec l'adresse de 
lecture, le sous-systeme antememoire 230 doit retirer les 
donnees requises du dispositif topographie a memoire 
directe appropriee. Lorsque les donnees requises sont 
retirees, les donnees requises, le dispositif ID, la 

35 transaction ID et l'adresse sont transmises au dispositif 
de requete. Pendant que les donnees pour une premiere 
requete sont en train d'etre retirees, le sous-systeme 
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antememoire 230 est capable de servir une seconde requete 
de lecture de sorte qu'un second dispositif exlgeant 
1 1 antememoire n'est pas bloque par le premier dispositif, 
Les divers modes de realisation de la structure de 
5 cette invention qui sont decrits ci-dessus sont seulement 
a titre d' illustration des principes de 1' invention et ne 
sont pas destines a limiter la portee de 1' invention aux 
modes de realisation particuliers decrits • Au vu de la 
presente description, ceux de I'art peuvent def inir dans 

10 la portee de la presente invention d'autres mises en 
oeuvre des files d'attente de donnees f des commutateurs, 
des files d 1 attente d 1 adresses , des sous-systemes 
antememoire, des multiplexeurs, des verrouilleurs, des 
bus, des processeurs et utiliser ces caracteristiques 

15 alternatives pour creer un processeur de signaux 
numeriques . 
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REVENDICATIONS 

1. Dispositif processeur integre de signaux 
numeriques, caracterise en ce qu f il comprend : 

un processeur a tout usage (210) ; et 
un processeur de vecteurs (220) capable de 
5 fonctionner en parallele avec le processeur a tout usage 
(210). 

2. Dispositif selon la revendication 1, caracterise 
en ce que le processeur a tout usage (210) comprend ; 

un jeu de registres scalaire ; 
10 une unite de decodage d f instructions ; et 

un noyau de traitement (200) qui traite un certain 
nombre de valeurs scalaires selon des instructions 
decodees par 1' unite de decodage d' instructions. 

3. Dispositif selon la revendication 2, caracterise 
15 en ce que le processeur de vecteurs (220) comprend : 

un jeu de registres de vecteurs ; 

une seconde unite de decodage d' instructions et un 
second noyau de traitement qui traite un certain nombre 
de valeurs de vecteurs selon des instructions decodees 
20 par la seconde unite de decodage d 1 instructions . 

4. Dispositif selon la revendication 1, caracterise 
en ce qu'il comprend de plus un sous-systeme antememoire 
(230) couple au processeur a tout usage (210) et au 
processeur de vecteurs (220), le sous-systeme antememoire 

25 (230) ayant un cache de memoire. 

5. Dispositif selon la revendication 4, caracterise 
en ce que le sous-systeme antememoire (230) comprend : 

un port de lecture d 1 antememoire ; et 

un port d'ecriture d f antememoire ; 
30 et en ce que le sous-systeme antememoire (230) 

supporte des acces simultanes au port de lecture 
d 1 antememoire et au port d'ecriture d 1 antememoire . 

6. Dispositif selon la revendication 4, caracterise 
en ce que le sous-systeme antememoire (230) comprend : 
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une file d'attente de donnees (410) couplee au 
processeur a tout usage (210) et au processeur de 
vecteurs (220) ; 

une file d'attente d'adresses (420) couplee au 
5 processeur a tout usage (210) et au processeur de 
vecteurs (220) et en ce que le cache de memoire comprend 
un cache SRAM (260) couple a la file d'attente de donnees 
(410) et a la file d'attente d'adresses (420) et un cache 
de ROM (270) couple a la file d ! attente de donnees (410) 
10 et a la file d'attente d'adresses (420). 

7. Dispositif selon la revendication 4, caracterise 
en ce qu'il comprend de plus un premier bus couple au 
sous-systeme antememoire (230) et un second bus couple au 
sous-systeme antememoire (230). 
15 8. Dispositif selon la revendication 7, caracterise 

en ce que le premier bus a une largeur de bande de 
premier bus superieure a une largeur de bande de second 
bus du second bus . 

9. Dispositif selon la revendication 8, caracterise 
20 en ce qu'il comprend de plus un processeur de flux de 

bits (245) couple au second bus et une interface de bus 
local couplee au premier bus, 

10. Dispositif selon la revendication 9, 
caracterise en ce que 1' interface du bus local est 

25 couplee a un bus local (105) d'un processeur primaire 
d'un systeme d'ordinateur . 

11. Dispositif selon la revendication 9, 
caracterise en ce que le sous-systeme antememoire (230) 
peut etre configure pour fournir une plural ite de trajets 

30 de communication entre le processeur de vecteurs (220), 
le processeur a tout usage (210) , le premier bus et le 
second bus. 

12. Dispositif selon la revendication 7, 
caracterise en ce que le sous-systeme antememoire (230) 

35 est accede par une premiere requete de cache. 

13. Dispositif selon la revendication 12 , 
caracterise en ce que si la premiere requete de cache 
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precitee exige a un certain nombre de cycles d'etre 
accomplis, le sous-systeme antememoire (230) est capable 
d 1 accepter une seconde requete de cache avant de finir 
ladite premiere requete de cache. 
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